JSAI2026 実業務ドキュメントコーパスを用いたRAG手法の体系的性能比較
テーマ
実業務文書を対象に、複数のRAG手法を体系的に比較する研究
Nomaticaの事例
生成回答そのものではなく、リトリーバが適切な根拠を取れるかに注目する
背景課題
RAG手法は多様化しているが、実業務文書での比較知見はまだ少ない
定量的な評価手法を確立したい
汎用ベンチマークは単一文書・事実質問に寄りやすく、実務の複数文書参照や提案型質問とはズレがある
わかる daiiz.icon
RAG全体評価は生成器の影響も混ざるため、まず検索品質を分けて見る必要がある
まずはRetrieverに焦点を当てる、いいね daiiz.icon
Retrieverの評価結果と人間の定性的な評価は比例するという先行研究もあるとのこと
実験設定
実業務で使われる114文書、約2000万文字のコーパス
比較対象
Multi-Vector
章・節単位(意味単位)でチャンク化したのベクトル検索
ヒットしたものに対応する親文書を返す
Tree LLM
独自のRAG手法
文書要約をヒットさせた後、章・節などの上位パスを辿り必要なものをコンテキストに入れる
GraphRAG
Multi Agent
質問はLLMで自動生成
難易度
根拠がまたがる文書数 1〜5 で制御
質問タイプ 3種類
idea
クエリから回答が容易に求められないもの
knowledge
一問一答系
review
誤認の訂正。「本当ですか?」系のクエリ
評価指標
RAGASの Context Recall / Context Precision / F1 を使用
どれだけ正解根拠を拾えたか
取得コンテキストにどれだけ不要情報が少ないか
両方のバランスを見る
手法ごとの結果
Tree LLM
文書選択と章・節単位の探索により、必要な情報を段階的に絞り込む
精度重視のRAGでは有力
Multi-Vector
高速・低コスト
不要情報を増やしにくく、Precision重視の場面に向く
Multi Agent
複数カテゴリに情報が分散する高難度タスクで有効になりうる
ただし不要情報の混入が課題
GraphRAG
今回のような質問応答・根拠取得タスクでは苦戦
グラフ構造の作り方や検索戦略の調整が重要そう
#聴講メモ